Системы автоматического распознавания речи

Авторы: А. Прохоров

Источник: А. Прохоров. Системы автоматического распознавания речи // "Компьютер Пресс" электронное издание. — 2003.

Аннотация

В данной работе произведена классификация существующих подходов к решению проблем распознавания речи.

Введение

Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 — для связи с тем-то, 3 — для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр — получил нужную информацию.

Kак же работает такая система? Давайте попробуем разобраться. Двумя основными типами программ для распознавания речи являются:

голосовые, или речевые, навигаторы (voice navigator) для управления программным и аппаратным обеспечением; их еще называют «программами распознавания команд»;
программы для диктовки — ввод текста и цифровых данных.

Голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь. Они имеют небольшой словарь (100-300 слов). Некоторые могут работать со слитной речью и не требуют обучения.

Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.

САРР — что это такое?

Cистемы автоматического распознавания речи (САРР) — это элемент процесса обработки речи, назначение которого — обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное1 декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

вляясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

Голосовые ключи

Голосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга — сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

Немного истории

Соединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», — пробормотал Валтер. «Этого слова нет в словаре», — ответил компьютер.

Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около 30 долл. в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули — это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила Socom — первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

Прогнозы аналитиков

Сегодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м. Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии.

Основные сложности

Главная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер — может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов.

Режим слитного произнесения более натурален и близок пользователю. При этом предполагается, что система сама различит границы слов во фразе. Однако этот режим требует гораздо больше системных ресурсов и памяти, а точность распознавания ниже, чем в предыдущем режиме. Почему это так? Причин несколько. Во-первых, при слитной речи произнесение слов менее аккуратно, чем в «режиме PIN-кода», то есть когда каждое слово произносится отдельно. Во-вторых, скорость речи даже у одного человека разная. Он может задуматься, засомневаться, забыть слово. В разговорной речи часто встречаются слова-паразиты: «ну», «а», «вот». Кроме того, границы слов часто смазываются, произносятся нечетко, что затрудняет работу системы.

Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря — важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд — около 1% для словаря в 100 слов, 3% — для словаря в 600 слов и 10% — для словаря в 8000 слов.